腾讯科技AI未来指北-AI探索者系列,对谈AI产业的躬身入局者,关注AI大模型落地第一程的关键问题。本期联合腾讯研究院,对谈上海交通大学长聘教轨副教授、无问芯穹联合创始人&首席科学家戴国浩,关注在scaling law之下,中国大模型如何突破算力瓶颈,寻找新的增长路径。
文 / 腾讯科技 郭晓静
AI大模型沿着scaling law,向人类展开了可能通往AGI的宏大叙事。如果参数无限向上,大模型最终是否能够通往通用人工智能,目前没有人能够得到确切的答案。但是,OpenAI、Google等全球科技大厂,正走在这样一条资源豪赌之路上。根据李飞飞团队刚刚发布的《人工智能指数报告》估算,最新一代人工智能模型的训练成本已经达到前所未有的水平。例如,OpenAI的GPT-4预计使用了价值7800万美元的计算资源进行训练,而谷歌的Gemini Ultra耗费了高达1.91亿美元的计算资源成本。未来的算力军备竞赛还将持续。微软开启“星际之门”超级计算机项目,估计总投入1150亿美元,谷歌作为主要其竞争对手,很快回应,谷歌的投资金额只会更多,母公司Alphabet拥有的算力超过竞争对手微软。在算力稀缺的情况下,有声音说“中国大模型,没有scaling law”。在当下,这种声音确实揭开了我们不得不面对的现实。芯片产业链是全球化的,产业链的关键生产环节分布在不同的地区,每个环节都不可或缺。当前,国内的芯片产业仍在积极发展中。但是,在短期内,如果中国大模型要继续发展,是否有除了scaling law的第二条路径?上海交通大学长聘教轨副教授、无问芯穹联合创始人&首席科学家戴国浩,从摩尔定律的发展规律观察,认为“随着时间的推延,在某一个特定规模的模型上的能力可能慢慢也会持平,这个时候,就可以去寻找发展的第二曲线,而这个曲线,就是在特定领域探索应用落地,打造商业闭环。”“从7B、13B模型性能变化来看,目前已经到了应用落地阶段,2024会是推理的元年。”戴国浩这样判断。相信scaling law,大模型确实可以越做越大,解锁越来越强的能力上限。同时更可以关注到现实情况下,基于规模适当的模型,在特定领域打造商业闭环的路径,正在迎来时间窗口。然而,算力成本是否能够降下来?无问芯穹发起人汪玉,用公开数据做了一次针对算力成本数量级的测算,假设GPT-4 Turbo每天要为10亿活跃用户提供服务,每年的算力成本可能超过两千亿,这还不包括模型训练的投入。考虑到绝大多数公司的收入在亿的级别,而不是千亿级别,这种成本在打造商业闭环上,显然是不成立的。
大模型在落地过程中,不得不面对以下难题:
1、在大模型商用中,foundation model(基础模型)要如何选?
2、模型迭代迅速,什么时候才能稳定下来?每次训练一个模型都需要成本,如何应对快速迭代的沉没成本?
3、如果以GPT-4的推理成本为基准,成本压缩有多大空间?从哪些环节可以做优化?
基于这些问题,我们对话了上海交通大学长聘教轨副教授、无问芯穹联合创始人&首席科学家戴国浩,“如何获得足够的算力”及“如何降低算力成本”是大模型落地需要直面的问题。
他认为,“对国内的AI产业来说,卡的数量不足不是最大的困难,因为国内有很多优秀的国产芯片企业。但是如何把这些卡的能力高效地集中到一起加以利用,是如今最难解决的问题。”
以下为对话精华内容:
大模型发展的“摩尔定律”启示
腾讯科技:无问芯穹的主营业务中似乎没有与芯片直接相关的,未来会做芯片吗?为什么要叫这个名字?戴国浩:我们创始团队有比较强的清华电子工程系的背景,清华每一个院系都会有一个缩写,像我当时分班(无)07班。“无”代表无线电系,电子系之前就叫无线电系,“0”代表2010年入学,“7”代表是第七个班级。而且无问、无穹都是清华校歌里的歌词。我们的主营业务是做芯片上面这一层的算力软件的,对大模型和芯片来说起了很好的连接作用,并且我们也正在芯片层面做大模型的专用处理器IP,所以“芯”这个字对我们来说有着挺重要的意义。总的来说,“无问芯穹”是想表达,我们要探索芯片智能的极限。腾讯科技:“缺芯”是中国大模型发展中,没法绕过的一个问题。我们换个角度来思考,scaling law会一直是大模型技术的第一性原理吗?它是否会一直影响大模型的进化?戴国浩:这里我们可以用三条线来解读。第一条线是今天大家都很熟悉集成电路领域里的术语——摩尔定律,摩尔定律某种程度上可以被解读为,如果你是一个做上层应用的人,即使你什么事都不干,做电路的人都会每隔18~24个月帮你迭代一次,让芯片的性能翻倍。在50年前,摩尔定律是飞速发展的,但我们发现随着量子的隧穿效应(量子隧穿效应就像是电子有了一个“穿墙术”,即使前面有一堵能量墙挡着,电子有时还能神奇地穿过去。这在现实世界中是不可能的,但在微观的量子世界里却是一种常见现象。这个效应对于制造像电脑芯片里的晶体管这样的微小电子设备特别重要)发生作用,或者芯片微缩到了22纳米以下,摩尔定律我们不能说它失效,但至少它的增长曲线的斜率的确是放缓的。
那么,在摩尔定律逐渐失效的情况下该怎么做?虽然通用计算方面摩尔定律失效了,但是针对特定任务而设计的专用芯片,是完全有效的。比如现在我们看到的GPU、NPU,在特定领域,一些专用芯片依然能够追随摩尔定律之前的增长斜率,这就产生了第二条线。
摩尔定律的前提假设是,底层构建电路和芯片的时候一直采用 CMOS器件,就像用砖头盖楼或者搭积木,通过缩小晶体管尺寸来实现更高的集成度和更好的性能。而我的研究中有一部分是探索,除了基于这种传统的CMOS工艺去做领域的定制加速,还可以做什么?如果我把底层器件换掉,比如说不是用CMOS器件,而是用一种存算一体或者模拟域的计算,是不是也可以?
这是第三条线,在摩尔定律的通用计算曲线和专用芯片性能曲线之后的一条线:新型器件与新型系统的协同设计。这一技术路线具有极高的能效潜力,起步的时间点可能稍微晚一些,但它的上升曲线是非常陡峭的。现在大家的目光都放在怎么把参数量堆上去,以实现更好的智能表现。而我们觉得,拿芯片层的摩尔定律去类比,模型层一定也会发生能力发展趋缓的问题。所以我们必须问自己,将模型的能力曲线映射到芯片曲线上,那第一条曲线我该怎么做?第二条曲线在哪?第三条曲线在哪儿?先看第一条曲线,这条曲线的关键是我们如何让模型更加高效,比如通过量化压缩等技术。第二条线是如果半导体电路能做特定领域的定制,模型也可以探索领域定制,比如用7B规模模型相应的算力能量,去追赶70B模型能够提供在某一个领域的能力。现在大家在说大模型落地,其实就是在说这件事。第三条线,意味着模型架构是有可能发生变化的,比如它有可能是一个更低比特的模型,将它与电路联合起来做设计,能表现出更陡峭的性能曲线。总体来说我们坚信scaling law,但是我认为scaling law应该有一个更全面的方式去解读。摩尔定律的发展给了我们很好的启示,除了堆参数之外,怎么打通生态,怎么让模型更高效地落地到应用,怎么把上下游更好地链接在一起,这是我们现在应该解决的问题。
腾讯科技:摩尔定律发展了几十年,我们才去想第二曲线,现在已经到了大模型要找第二、第三曲线的时候了吗?戴国浩:集成电路刚刚被提出的时候,大家其实并不着急考虑它什么时候会放缓,当它真正放缓的时候,高效计算应运而生。大模型发展到今天,某些固定规模参数的模型能力提升已经开始放缓,所以怎么更高效地解决模型计算问题,就是必须要考虑的事情。虽然大模型领域的第一曲线的确还没发展完,但我们判断稍小型模型的落地应用,今年一定会有爆发。
腾讯科技:这条路像有资源和技术优势的OpenAI,一定会继续走下去吧?戴国浩:它一定会沿着这条路走的。这条路的基础是你需要有更多的算力。戴国浩:我觉得现在其实并不是算力被拉开,而是算力的有效使用被拉开。非官方数据说GPT-4在训练的时候使用了2-3万张卡,并且媒体报道它正在训练的模型,希望构建十几万卡的集群。对国内来说,最大的难点是怎么把这么多的卡组合在一起,并实现高效利用。现在不只是单点的计算能力,点和点之间的连接能力十分重要。如何让整个系统的集群能力发挥到极致,这是现在不好解决的问题。卡的绝对值并非最大的困难,国内这么多优秀的国产企业,不是说真的找不到这么多卡。如何把这些卡的能力集中到一起,是现在最难解决的问题。
英伟达(NVIDIA)在2019年收购了一家名为Mellanox Technologies的公司,后者是一家专注于高性能网络互联解决方案的供应商。收购Mellanox后,英伟达将其技术整合到了自己的产品线中,并在此基础上继续发展。其中包括NVLink,这是一种高速点对点数据传输技术,允许多个GPU或其他处理器之间进行快速直接的通信。所以慢慢的,英伟达在单点的能力提升之外,把互联的能力也提升上来,集群的能力提升上来,最终生态能力也给提升上来了。但其实仔细看英伟达最新发布的B200,单点的计算能力提升,也遇到了瓶颈。所以包括英伟达在内,目前的环境中,如何把卡通过系统层面高效地连接在一起,是特别急需要解决的问题,不仅仅是包括硬件的互联,还包括软硬件互联。腾讯科技:对国内来说,单点突破更难,还是多点互联更难?戴国浩:都难,硬件上互联跟单点都存在差距,但是单点我觉得现在是机会。因为摩尔定律在放缓,也就意味着虽然别人领先于你,但是终点就在眼前了。虽然对手比你领先,但是他也“跑不动了”,再花一点时间,总能追上。互联的能力是需要长期积累的,同样还需要积累的是软件上的生态。我从2011年开始去写GPU代码,当时CUDA还是2.0版本,英伟达花了很大的力气给学校捐卡、捐钱、开课,让学生在本科生、研究生的学习阶段就使用CUDA,于是学生们做研究用CUDA、走上工作岗位依然用CUDA。我们现在其实也有很多优秀的国产的芯片企业,但几乎没有一家说学生在上学的时候就会写他家厂商的代码。所以硬件差距虽然有,但随着时间的推移,我们有机会能够追上。而软件更需格外重视,你看AMD后发追赶英伟达的生态,要多付出多少努力。
算力成本——商业闭环的关键一环
腾讯科技:我们聊到像7B规模的开源模型的能力差不多了,是不是可以基于它来做应用,探索商业闭环了?在这个过程中,算力成本还是不是最大的障碍和门槛?
戴国浩:成本是落地时极为重要的因素。一个好的商业闭环是能够形成快速迭代的,并且把落地部署的效率和成本做到极致。“生成”能够解放生产力。当年瓦特发明蒸汽机,蒸汽机就是在生成动力。到第二次工业革命,发电机生成电力。今天大模型在生成内容。但是如果要最终做到帮助社会生产力的整体进步,一定要能让终端的使用者能接受它的成本。回看集成电路的发展,今天,一个小的笔记本、一个手表,就可以完成很多功能和任务,但是如果这只手表每天都要花很多的钱,大家肯定不会用了。同理,我们需要考虑怎么把大模型的成本降低,换言之,用电换token的时候要效率更高、代价更小。这对技术提出两个要求。一方面是模型要做得足够好,生成的token都能用,无效的token很少。另一方面就是我的计算系统要做到足够高效,两百个token花3秒还是花5秒生成出来,成本能差出40%。虽然有很多人会沿着OpenAI向更大规模模型探索这条路,但要注意的是,今年会是训练转向推理的很重要的一年,大家会特别关注推理成本,也就是如何在一个基本成熟的模型之上,把商业闭环的落地成本降低。腾讯科技:从企业来讲,现在怎样计算算力成本,现在有标准了吗?是以token为单位计算成本吗?
戴国浩:我们聊过很多企业和开发者,大家最希望看到的是直接按token算。
他们调用大模型去处理任务时,确实不想关心底层是什么。就像现在大家使用苹果笔记本,并不关心它用的是苹果自己的芯片,还是英特尔的。消费者只关心办工时是能用10个小时还是用6个小时,打游戏时是能跑30帧还是能跑60帧。
芯片或其他系统能够提供的附加能力,最终会体现在成本、功耗等指标上。大家用大模型的方式是token,最终需要算出的就是一段时间内能够计算多少token,要花多少钱,或者耗多少电。
腾讯科技:但是按照目前大模型行业的商业模式来看,OpenAI的推理成本都不能打平,我们算过账吗?怎样才能让大模型的商业模式成本打平?
戴国浩:我们做的事情就是让大家能把成本打平,甚至能盈利。无问芯穹现在做到的事情是比OpenAI的报价大概低三个数量级,最终我们希望能够做到四个数量级。
戴国浩:1个量级是10倍,打个比方,5美分1000个token,我把它变成了5美分10000个token,是一个量级。3个量级就是1000倍,4个量级就是10000倍。戴国浩:重点是软硬协同,大模型从上层的算法到底层芯片,是有很多堆栈的,比如有应用层、算法层、框架层、算子层等。
再加上底层芯片层,每一层都有很多优化的空间。比如说在平台层可以做调度优化,算子层可以写更好的算子,芯片层可以去做专用的芯片,算法层可以去做量化压缩,应用层又可以去做高效的应用设计。市面上很多公司在做具体某一层的优化,我们的重点是打通来做每一层,我们在每一层大概都能做到10倍,最后乘在一起会是1万倍成本下降的效果。
全栈打通优化,对于团队的技能栈的深度要求会很高,需要既懂算法、又懂系统还懂硬件的团队,这件事门槛挺高。比如硬件这块,我们团队于1月初推出了全球首个基于FPGA的大模型处理器,通过大模型高效压缩的软硬件协同优化技术,把LLaMA2-7B模型的FPGA部署成本从4块卡减少到了1块卡,相比在同等工艺的英伟达 V100S GPU上,可以实现6倍的能效比提升与1.8倍的性价比提升。
腾讯科技:所以目前客户主要是模型公司是吗?
戴国浩:上下游都会是无问芯穹的客户,现在客户大致有几类:算力中心客户、行业应用客户、模型公司客户等。
供需错配,算力市场的长期痛点
腾讯科技:在云计算时代,我们就在说算力的供需错配问题。在大模型时代,这个问题是不是依然存在?戴国浩:这个问题依旧存在,而且更明显了。云计算兴起于约2000年左右。那个时候机器建设的成本没有现在这么高,一台纯CPU服务器,可能也就小万元,整体算下来成本并不高。到了GPU时代,一张算力卡有可能就要花10万,一台整机的价格能达到200~300万。同样是浪费50%的算力,过去是亏1万,现在可能是亏100万,这个差距就非常大了。另外,CPU的技术相对来说比较成熟,比如现在CPU可以做共享,一台CPU上开1000个容器,大家都能用。但GPU,如果在上层没有很好的调度和部署软件,很难做到像CPU这样的高效利用。如果能大幅提升GPU利用效率,其产生的社会经济价值会远高于过去的云计算。腾讯科技:如果未来大模型是基础设施,全世界也不需要这么多大模型,是不是训练需求会下降很多?戴国浩:模型规模可能还是会涨,但模型的个数可能会收敛。训练的需求会一直在,但是它会更集中,我相信不需要全世界几千家公司都去训自己的模型。
戴国浩:训练的需求等于训练模型的机构的个数乘以它的算力需求。我认为scaling law会较长期存在,机构个数一定会降,但每家的算力需求会涨。乘在一起,最终曲线可能是平缓的,不过推理需求一定是不断增长的。戴国浩:我们在第一线接触客户,这个感觉是特别明显的,无论是ToB还是ToC。甚至是一些原来不做AI的厂商,都在布局大模型。能源、金融或者央国企都开始有这样的需求。上一轮AI,是应用场景适应技术。技术能做物体分类,因此我们能去创造一个人脸识别的场景,比如在闸口装一个打卡机,或者在支付阶段装一个人脸识别的付款设备。但通用能力不够强,引入AI会给原业务带来很多额外成本。但现在AI能力足够强,能深入到各种场景中去。人脸识别打卡是后于CV技术发展的,而写代码这类生产工作则是从很久以前就存在。这个过程类似工业革命,AI不会颠覆某个行业,而是能够颠覆人类的生产力。就好像蒸汽机的出现,颠覆的不是造机器的人,而是给整个社会带来变革。我跟很多程序员朋友聊天,他们写代码基本上已经很难离开生成式AI了。上一轮在创造应用,而这一轮是应用天然都有,只要我的AI能力足够强,我就能结合进去。腾讯科技:你们的商业模式先最主要ToB?从上一轮CV的时候,行业内就会讨论,ToB不好做,链条长、个性化程度高、难有规模性,你怎么看?戴国浩:确实不好做,但是有价值,有收益。国内外不太一样,国外公司的“生态位”更清晰,大家有明显的上下游关系,就把自己位置的事儿做好就行了,很少遇到上下游都做的。而国内生态位分层还不成熟,Infra基础层公司特别少,而且门槛更高,你得上下游链条都懂,既懂算法又懂硬件,对团队的能力要求特别高。腾讯科技:英伟达的生态很好,国内必须要做自己的生态出来吗?戴国浩:英伟达确实有一套非常好的生态,当然国内的芯片厂商也都尝试在构建生态,但是我的观点是其实大家还是应该把生态给打通。首先很多既有的数据中心用的就是英伟达的卡,我们没必要替换掉,但是还需要一些新的卡。CUDA做的非常好的一件事情就是向前兼容,原来的程序还能在新的卡上跑,可以放心大胆买新的卡。我们一定可以做自己的生态,但需要把自己的生态跟CUDA的生态打通,让大家一起把这件事做得更大。我们无问芯穹在做的就是把这些芯片的生态打通连接在一起,并且把优化能力做得更深。大模型的时代,CUDA这一层不需要那么宽了,原本有千万种模型,但现在大模型的结构比较统一,做宽就没有太大收益了。现在我从深度上去把优化性能给做深,或者说不体现在CUDA算子或者某个单独的一层,而是体现在整个生态的打通上。腾讯科技:我看到你们也有模型,未来会做基础大模型吗?戴国浩:我们有自己的模型。我们做模型主要两个目的,一是我要服务这些模型厂商,我自己必须得懂。另外就是我要服务一些应用客户,应用客户很大的需求是模型可控,所以我不能提供一个开源模型给他。我的服务必须搭上某个闭源模型,才能跟这些客户做生意。出于这两个考虑,我们有做自己的模型。当然我们并不是在模型这层去跟这模型厂商竞争,就好像模型厂商做Infra,是为了更好地去服务他自己。